مقایسه الگوریتم های متفاوت تخمین داده های گمشده در مجموعه داده های آزمایش های ریزآرایهcdna با شرایط گوناگون

پایان نامه
چکیده

تکنیک ریزآرایه dna، تکنولوژی معمول با عملکرد بالا برای نشان دادن سطوح بیان هزاران ژن بطور همزمان در شرایط مختلف است. این تکنیک، بیولوژی ملکولی را متحول ساخت. برخلاف بیولوژی ملکولی قدیمی، استفاده مفید ریزآرایه dna، نیازمند استفاده توام آمار و محاسبات جهت طراحی آرایه ها، طراحی آزمایشات و تجزیه تحلیل و مدیریت داده ها است. مهمترین کاربرد آن تعیین شباهت ژن های بیان شده در شرایط مختلف سلولی و مرتبط ساختن ژن های دارای عملکردهای سلولی مشابه است. اطلاعات آزمایشات ریزآرایه ها معمولا در قالب ماتریس های بزرگ بیان ژن و شرایط مختلف آزمایشی و تعدادی داده گمشده هستند. متاسفانه حتی با رشد تکنولوژی، در تکنولوژی های توان بالا تولید داده نیز با داده های گمشده مواجه هستیم. بنا بر دلایل آزمایشگاهی و اقتصادی امکان انجام دوباره آزمایشات ممکن نیست، از این رو حذف داده ها و یا جایگزین کردن با اعداد ثابت به جای داده-های گمشده از نظر بسیاری از محققان مورد قبول است. از آنجا که بسیاری از الگوریتم های خوشه-بندی و تعدادی از روش های تجزیه تحلیل آماری به دسته داده های کامل نیازمندند، محاسبه داده های گمشده برای کاربرد موثر اطلاعات ریزآرایهdna امری ضروری است. عدم توجه به داده های گمشده و روش مناسب جهت تخمین آن ها سبب کاهش دقت، ایجاد اشکالاتی در نتیجه گیری، عدم کاربردی بودن داده های حاصل از آزمایشات و عدم توانایی در تعمیم آن ها به جامعه واقعی خواهد شد. بنابراین برای حداقل کردن اثر دسته داده های ناقص در تجزیه تحلیل ها و افزایش دامنه قابل اطمینان داده ها، باید از الگوریتم های تخمین داده های گمشده استفاده کرد. در این مطالعه یازده الگوریتم تخمین داده-های گمشده برای مقایسه کارایی آن ها در شرایط مختلف با استفاده از دسته داده های برگرفته از پایگاه های معتبر داده، الگوریتم های مخصوص تخمین داده های گمشده، نرم افزارها و دستوراتی برای انجام مراحل مختلف تخمین بکار گرفته شد. نتیجه می گیریم با افزایش درصد داده های گمشده، دقت این الگوریتم ها کاهش می یابد. همچنین عواملی نظیر ذات خطی و غیرخطی داده، توزیع گمشدگی داده ها، نوع داده ها، درصد گمشدگی داده ها، کمیت پارامترهای موثر در الگوریتم های تخمین داده های گمشده، سایز داده و وجود نویز نیز بر دقت و کارایی این روش ها موثرند.

منابع مشابه

تاثیر داده های گمشده در نمودارهای رشد

سابقه و هدف: استفاده از منحنی رشد قدرتمندترین وسیله پایش رشد کودکان می باشد و از این طریق می توان انحرافات از الگوی رشد طبیعی را بموقع تشخیص داد. ریزش داده ها و مقادیر گمشده از مشکلات معمولی در تجزیه و تحلیل داده های طولی رشد محسوب می شود. لذا اهمیت دارد که با برآورد نمودن مقادیر گمشده، داده ها کامل شده و در مسیری مناسب و صحیح جهت تحلیل قرار داده شوند. مواد و روش ها: این مطالعه طولی طی دو سال ب...

متن کامل

مقایسه الگوریتم های برپایه یادگیری ماشین بر دقت تخمین داده های گمشده حاصل از آزمایش های ریزآرایه

وجود داده های گمشده در داده های ریزآرایه، سبب کاهش دقت رسم شبکه های تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیم بندی تخصصی ژن ها و سایر تحلیل ها می شود. بنابراین تخمین داده-های گمشده مرحله مهمی در پیش پردازش داده های ریزآرایه، محسوب می شود. عملکرد الگوریتم-های تخمین در مجموعه داده های مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسب ترین الگوریتم به منظور دستیابی به بیشترین دقت...

متن کامل

کاربرد الگوریتم های داده کاوی در تشخیص داده های ژئوشیمیایی خارج از ردیف چند متغیره

تشخیص داده‌های خارج از ردیف چند متغیره به کمک الگوریتم‌های داده‌کاوی یکی از نکات ضروری پیش‌پردازش داده‌های اکتشافات ژئوشیمیایی محسوب می‌شود. در این مقاله چهار الگوریتم برآورد چگالی کرنل (KDE)، ضریب خارج از ردیف بودن محلی (LOF)، OPTICS-OF و SVDD که به ترتیب جزو روش‌های آماری، روش‌های مبتنی بر مجاورت، روش‌های مبتنی بر خوشه‌بندی و روش‌های مبتنی بر دسته‌بندی هستند، معرفی شده و کاربرد آنها بر روی دا...

متن کامل

تحلیل استوار داده های فضایی در حضور داده های دورافتاده

معمولاً تابع تغییرنگار که ساختار همبستگی داده­های فضایی را تعیین می­کند و نقش پایه­ ای در تحلیل آن­ها دارد، نامعلوم است و لازم است براساس مشاهدات برآورد شود. وجود داده­ های دورافتاده در مشاهدات تاثیر نامناسبی در برآورد تغییرنگار و سایر بخش­های تحلیل داده­های فضایی همچون پیش­گویی فضایی و برآورد پارامترهای روند دارد. در این مقاله ابتدا با استفاده از برآوردگرهای مقیاس، چند برآوردگر استوار جدید با ن...

متن کامل

ارائه یک روش جدید برای تخمین مقادیر گمشده در مجموعه داده

اغلب مجموعه داده های مربوط به داده کاوی و ماشین یادگیری دارای داده هایی با مقادیر Missing Values یا داده گمشده می باشند. چگونگی برخورد با داده گمشده و نیز ارائه راهکارهایی مبتنی بر تخمین مقدار مربوط به داده گمشده، منجر به بروز یک مسئله بسیار مهم در زمینه داده کاوی و ماشین یادگیری  شده است. در بین الگوریتم های داده کاوی، الگوریتم C4.5، به دلیل کارآیی، استفاده در کاربردهای مختلف داده کاوی و نیز ت...

متن کامل

مقایسه عناصر داده ای مجموعۀ حداقل داده های پرستاری

چکیده مقدمه: داده‌پردازی استاندارد نقش مهمی در مراقبت از بیمار ایفا می‌کند. داده‌های پرستاری، سطح اولیه انفورماتیک پرستاری را تشکیل می‌دهند. این داده‌ها، ابزار اصلی مورد استفاده برای ثبت شرح دقیق فرایند پرستاری از طریق روش‌شناسی ارزشیابی، تشخیص‌ها، مداخلات، پیامدها، مستندسازی و ارزیابی مراقبت بیمار هستند. همچنین نخستین اقدام برای استاندارد ‌کردن جمع‌آوری داده‌های یکسان و ضروری پرستاری برای ا...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده کشاورزی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023